Scan-Dienste

Scanner zur Texterfassung

Scannen von Grafiken, Bildern etc.



Scanner zur Texterfassung

Übersicht

Einsatzzweck der Lesesysteme

Ausstattung der Lesesysteme


Übersicht

Für die Erfassung von maschinengeschriebenen oder gedruckten Texten stehen im ZDV derzeit vier Texterkennungssysteme für unterschiedliche Einsatzzwecke zur Verfügung:

OPTOPUS Lesesystem

OmniPage Professional

TextBridge Professional Edition

ScanWorX

Mit dem Angebot von vier nebeneinander bereitgestellten Texterkennungssystemen trägt das ZDV der Tatsache Rechnung, daß die unterschiedlichen Textvorlagen und die unterschiedlichen Anforderungen an das Ergebnis nicht von einem einzigen System optimal bewältigt werden können.


Einsatzzweck der Lesesysteme

Die vier vorhandenen Systeme lassen sich nach ihrem Einsatzzweck grob wie folgt klassifizieren:

OPTOPUS
Texte in nicht-lateinischer Schrift (einschließlich Fraktur); Texte mit vielen Sonderzeichen; Notwendigkeit, Unterschiede in Schriftart (z.B. Antiqua-Schrift oder serifenlose Schrift) und Schriftgröße mit zu erfassen.
OmniPage Professional und TextBridge Professional Edition
gute Druckvorlage, neuerer Druck, lateinische Schrift. Programme erkennen Unterschiede in Schriftart und Schriftgröße.
ScanWorX
Texte in vorwiegend lateinischer Schrift auch in schlechterer Druckqualität, mit zusätzlichen Sonderzeichen oder Teilen in nicht-lateinischer Schrift. Programm erkennt Unterschiede in Schriftart und Schriftgröße.

Die Ausstattung der Lesesysteme

OPTOPUS Lesesystem

Das OPTOPUS Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

OPTOPUS arbeitet für die Zeichenerkennung mit dem Vergleich von vorgefundenen und trainierten Zeichen-Formen (pattern matching). Dies hat den Nachteil, daß vor jeden Lesevorgang eine Trainingsphase vorgeschaltet werden muß (falls nicht mit einem früheren Trainigsset am gleichen Dokument weitergearbeitet werden soll).

Die spezielle Stärke dieses Verfahrens ist die freie Trainierbarkeit auch für nicht-lateinische Alphabete sowie die Möglichkeit der Unterscheidung unterschiedlicher Schriftgrößen und -arten. Bei OPTOPUS wird die Information über Font-Wechsel und Schriftgrößen-Wechsel mit in der Textdatei abgelegt.

Der Einsatzschwerpunkt von OPTOPUS ist am ZDV daher das Einlesen von Texten in Nicht-Standard-Schriften (Fraktur; nicht-lateinische Alphabete).

OmniPage Professional

Das OmniPage Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

OmniPage arbeitet für die Zeichenerkennung nicht mit dem Vergleich von vorgefundenen und trainierten Zeichen-Formen (pattern matching), sondern mit der Analyse von Eigenschaften der vorgefundenen Zeichen (feature recognition). Dies hat den Vorteil, daß auf eine Trainingsphase verzichtet werden kann. Dadurch ist die Bedienung des Systems recht einfach. Trainieren einzelner Zeichen ist aber möglich.

TextBridge Professional Edition

Das TextBridge Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

TextBridge kann (wie OmniPage) ohne Training durch den Benutzer arbeiten. Eingeschränktes Trainieren einzelner Zeichen und Wörter ist möglich.

ScanWorX

Das ScanWorX Texterkennungssystem des ZDV besteht aus folgenden Komponenten:

ScanWorX kann (wie OmniPage oder TextBridge) ohne Training durch den Benutzer arbeiten, bietet aber gleichzeitig die Möglichkeit, nicht automatisch erkannte Zeichen oder Schriften beim ersten Vorkommen zu trainieren; diese Zeichen werden dann bei erneutem Vorkommen ebenfalls automatisch erkannt.

ScanWorX verbindet somit die Vorteile der vollautomatischen Texterkennung (die auch von OmniPage oder TextBridge geboten wird) mit den Vorteilen der freien Trainierbarkeit, die für nicht-lateinische Schriften erforderlich ist und seinerzeit für die Beschaffung von OPTOPUS den Ausschlag gegeben hatte.

Erste Erfahrungen zeigen, daß die Erkennungsqualität vor allem bei nicht optimalen Vorlagen deutlich besser ist als bei den übrigen Systemen.

Der schnelle Scanner läßt außerdem einen deutlich höheren Durchsatz erwarten als die zuvor installierten Systeme.


Scannen von Grafiken, Bildern etc.

Das Einscannen von Bildern ist auf den Scannern möglich, die an den oben unter OmniPageProfessional bzw. unter ScanWorX aufgeführten Texterkennungssystemen angeschlossen sind.

Auf dem PC, auf dem OmniPage Professional installiert ist, steht unter WINDOWS folgende Software zur Verfügung:


Ansprechpartner im ZDV: Harald Fuchs, Zi. 126, Tel. 07071/29-76962.


fuchs@zdv.uni-tuebingen.de - Stand: 10. Juli 1996